Statistiques
Dans ce chapitre on aborde la "science des sondages". Deux situations principales nous intéressent : Prenons l'exemple d'une urne contenant des boules rouges et des boules bleues :
  • Echantillonage : je connaît la proportion $p$ de boules rouges. On procède à des tirages successifs et avec remise de $n$ boules et observe la fréquence $f$ de boules rouges tirées. $f$ appartient à un intervalle $[p-k;p+k]$ centré en $p$ et dont l'amplitude diminue avec $n$
  • Estimation : j'ignore la proportionde boules rouges. En procédant à des tirages successifs et avec remises de $n$ boules rouges, la fréquence observée $f$ de boules rouges permet d'estimer la valeur de $p$. Cette estimatimation se fait à l'aide d'un intervalle de confiance.
Nous considérons un échantillon de la population de taille $n$, et étudions une propriété dont la probabilité de succés est $p$. On considère le choix de cet échantillon comme une suite de tirages aléatoires indépendants avec remise.
  • $X_n$ le nombre de candidats à succés suit une loi binomiale $\mathcal{B} (n,p)$
  • $F_n = \frac{X_n}{n}$ indique la fréquence de succés sur l'échantillon
On sait déjà que $E (X_n) = n p$ et $\sigma (X_n) = n p (1-p)$ La fréquence de succés $F_n$ est une variable aléatoire d'espérance et d'écart-type : $$ E (F_n) = p \text{ et } \sigma (F_n) = \frac{\sqrt{p (1-p)}}{\sqrt{n}} $$ On utilise la linéarité de $E$ et $\sigma$ :
  • $E (F_n) = E (\frac{X_n}{n}) = \frac{1}{n} E (X_n) = \frac{1}{n} \times n p = p$
  • $\sigma (F_n) = \sigma (\frac{X_n}{n}) = \frac{1}{n} \sigma (X_n) = \frac{1}{n} \times \sqrt{n p (1-p)} = \frac{\sqrt{p (1-p)}}{\sqrt{n}}$
D'après le théorème de Moivre-Laplace, la fréquence de succés $F_n$ peut-être approchée par la loi normale $\mathcal{N} (p,\frac{p (1-p)}{n})$. La valeur seuil $u_\alpha$ du chapitre sur la loi normale nous permet de déterminer un intervalle contenant $F_n$ avec certaine probabilité. Pour tout $\alpha \in ]0,1[$, on pose : $$ I_n=[p - u_\alpha \frac{\sqrt{p (1-p)}}{\sqrt{n}} , p + u_\alpha \frac{\sqrt{p (1-p)}}{\sqrt{n}}] $$ Alors, la probabilité $P (F_n \in I_n)$ tend vers $1-\alpha$ lorsque $n$ tend vers $+ \infty$ $X_n$ suit la loi binomiale $\mathcal{B} (n,p)$. Nous pouvons donc approcher (par passage à la limite) X_n par une loi normale $\mathcal{N} (np, n p (1-p) )$, et donc $\frac{X_n - np}{\sqrt{n p (1-p)}}$ par la loi normale standard $\mathcal{N} (0,1)$. Alors d'après le théorème de Moivre-Laplace : $$ \lim\limits_{n\rightarrow +\infty} P \left (-u_\alpha \leq \frac{X_n - np}{\sqrt{n p (1-p)}} \leq u_\alpha\right) = 1-\alpha $$ L'inégalité $-u_\alpha \leq \frac{X_n - np}{\sqrt{n p (1-p)}} \leq u_\alpha$ est équivalente à : $$ \begin{array}{ccccc} -u_\alpha \sqrt{n p (1-p)} &\leq& X_n - np &\leq& u_\alpha \sqrt{n p (1-p)}\\\\ np-u_\alpha \sqrt{n p (1-p)} &\leq& X_n &\leq& np + u_\alpha \sqrt{n p (1-p)}\\\\ p - u_\alpha \frac{\sqrt{p (1-p)}}{\sqrt{n}} &\leq& \frac{X_n}{n} &\leq& p + u_\alpha \frac{\sqrt{p (1-p)}}{\sqrt{n}}\\\\ \end{array} $$ Ce qui signifie que $F_n \in I_n$. Et donc : $$ \lim\limits_{n\rightarrow +\infty} P (F_n \in I_n) = 1-\alpha $$ Pour tout $\alpha \in ]0,1[$, l'intervalle $I_n$ ci-dessus s'appelle l'intervalle de fluctuation asymptotique au seuil $1-\alpha$.
  • Ce théorème permet de donner la précision d'un sondage en affirmant que la fréquence $F_n$ de succés d'un tirage est dans l'intervalle $I_n$ centré autour de la proportion réelle $p$ avec une probabilité $1-\alpha$ (on prend $1-\alpha = 0,95$ ou $0,99$ en général)
  • De plus, la limite exprimer le fait que plus l'échantillon est grand, meilleure sera la précision (car l'intervalle rétrécit)

Si l'on effectue un tirage au sort (avec remise) dans une urne contenant une proportion $p=0,4$ de boules blanches, il y a de grande chances de tirer environ $40%$ de boules blanches.

Ca n'est généralement vrai, que si l'on effectue un nombre $n$ significativement important de tirages.

Il est possible de prouver que dans des conditions particulières, la proportion correspondra environ à $40%$ dans $95%$ des cas. C'est ce qu'exprime l'intervalle de fluctuation asymptotique.

Soient $p$ la proportion connue, $n$ le nombre de tirage, et $f$ la fréquence effective (observée).

Si $n \geq 30$, $n p \geq 5$ et $n (1-p)\geq 5$, alors :

$f$ est dans l'intervalle $[p - 1,96\frac{\sqrt{p (1-p)}}{\sqrt{n}}, p + 1,96\frac{\sqrt{p (1-p)}}{\sqrt{n}}]$ avec une probabilité de $0,95$

La proportion $p$ d'enfants prématurés en France est de $6\%$. Des chercheurs font l'hypothèse qu'une femme ayant eu un travail pénible pendant sa grossesse a plus de chance d'avoir un enfant prématuré.

Ils réalisent une enquête sur $n=400$ femmes ayant eu un travail pénible pendant leur grossesse.

Dans cet échantillon, $50$ femmes ont eu des prématurés.

Déterminer à $10^{-4}$ près, l'intervalle de fluctuation $I$ au seuil de $95\%$. Calculer la fréquence effective $f$ de prématurés sur l'échantillon. On valide l'hypothèse si $f$ est plus grande que la borne supérieure de l'intervalle $I$. Conclure.

$I = [p - 1,96\frac{\sqrt{p (1-p)}}{\sqrt{n}}, p + 1,96\frac{\sqrt{p (1-p)}}{\sqrt{n}}] \simeq [0,037;0,083]$

Les conditions $n =400 \geq 30$, $n p = 24 \geq 5$ et $n (1-p) = 376 \geq 5$ sont satisfaites, donc l'échantillon est significatif.

$f = \frac{50}{400} = 0,125$ $f \gt 0,083$, donc l'hypothèse selon laquelle un travail pénible durant la grossesse acroît les risques de naissance prématurée est validée.

Lorsqu'une étude statistique déclare que 35% des français préfèrent la montagne à la plage, il s'agit d'une fréquence ($p=0,35$) estimée, mais que l'on ne connaît pas réellement (il est impossible d'interroger tous les français).

On peut prouver mathématiquement que cette statistique est fiable à 95% si on a interrogé un échantillon de $n$ français suffisemment grand.

Cet outil mathématique est l'intervalle de confiance 0,95.

Soient $f$ la fréquence observée, $n$ la taille d'un échantillon et $p$ la fréquence réelle (inconnue).

Si $n \geq 30$, $n f \geq 5$ et $n (1-f)\geq 5$, alors :

$p$ est dans l'intervalle $[f - \frac{1}{\sqrt{n}}, f + \frac{1}{\sqrt{n}}]$ avec une probabilité de $0,95$

Un médecin veut tester un traitement. Il expérimente sur deux groupes de malades ayant la même pathologie.

  • Le groupe A (150 malades) reçoit le traitement. La maladie est réduite pour 121 patients.
  • Le groupe B (150 malades) reçoit un placebo. La maladie est réduite pour 94 patients.

Déterminer à $10^{-2}$ près les fréquences $f_A$ et $f_B$ des patients en rémission dans chaque groupe. Déterminer à $10^{-2}$ près l'intervalle de confiance 0,95 pour chaque groupe. On considère que le traitement fonctionne si les deux intervalles sont disjoints. Conclure.
$f_A = \frac{121}{150} \simeq 0,81$ et $f_B = \frac{94}{150}\simeq 0,63$

Pour le groupe A l'intervalle est $[f_A - \frac{1}{\sqrt{n}},f_A + \frac{1}{\sqrt{n}}] \simeq [0,73;0,89]$

Pour le groupe B l'intervalle est $[f_B - \frac{1}{\sqrt{n}},f_B + \frac{1}{\sqrt{n}}] \simeq [0,55;0,71]$

Les deux intervalles de confiance 0,95 sont bien disjoints, on peut considérer le traitement efficace.